检索结果

Select

1. 深度双模态源域对称迁移学习的跨模态检索

刘秋杰, 万源, 吴杰

《计算机应用》唯一官方网站 2024, 44 (1): 24-31. DOI: 10.11772/j.issn.1001-9081.2023010047

摘要（232）

HTML （4）

PDF （2170KB）（136）

基于深度网络的跨模态检索经常面临交叉训练数据不足的挑战，这限制了训练效果并容易导致过拟合。迁移学习在源域中训练数据的知识迁移学习到目标域中，能有效解决训练数据不足的问题。然而，现有的大部分迁移学习方法致力于将知识从单模态（如图像）源域迁移到多模态（如图像和文本）目标域，而如果源域中已存在多种模态信息，这样的非对称迁移会忽略源域中包含的潜在的模态间语义信息；同时这些方法不能很好地提取源域与目标域中相同模态的相似性，进而减小域差异。因此，提出一种深度双模态源域对称迁移学习的跨模态检索（DBSTL）方法。该方法旨在实现从双模态源域到跨模态目标域的知识迁移，并获得跨模态数据的公共表示。DBSTL由模态对称迁移子网和语义一致性学习子网构成。模态对称迁移子网采用混合对称结构，在知识迁移过程中，使模态间信息具有更高的一致性，并能减小源域与目标域间的差异；而语义一致性学习子网中，所有模态共享相同的公共表示层，并在目标域的监督信息指导下保证跨模态语义的一致性。实验结果表明，在Pascal、NUS-WIDE-10k和Wikipedia数据集上，所提方法的平均精度均值（mAP）较对比方法得到的最好结果分别提升了大约8.4、0.4和1.2个百分点。DBSTL充分利用了双模态源域的潜在信息进行对称迁移学习，在监督信息的指导下保证了模态间语义的一致性，并提高了公共表示空间中图像文本分布的相似性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于多尺度卷积和注意力机制的LSTM时间序列分类

玄英律, 万源, 陈嘉慧

《计算机应用》唯一官方网站 2022, 42 (8): 2343-2352. DOI: 10.11772/j.issn.1001-9081.2021061062

摘要（1585）

HTML （68）

PDF （711KB）（651）

时间序列的多尺度特征包含丰富的类别信息，且这些信息对分类具有不同的重要程度，然而现有的单变量时间序列分类模型通常以固定大小的卷积核提取序列特征，导致不能有效地获取并聚焦重要的多尺度特征。针对上述问题，提出一种基于多尺度卷积和注意力机制（MCA）的长短时记忆（LSTM）模型（MCA-LSTM），它能够关注并融合重要的多尺度特征，从而实现更准确的分类。其中，LSTM使用记忆细胞和门机制控制序列信息的传递，并充分提取时间序列的相关性信息；多尺度卷积模块（MCM）使用具有不同卷积核的卷积神经网络（CNN）提取序列的多尺度特征；注意力模块（AM）融合通道信息获取特征的重要性并分配注意力权重，从而使网络关注重要的时间序列特征。在UCR档案的65个单变量时间序列数据集上的实验结果表明，对比当前最先进的基于深度学习的时间序列分类模型：USRL-FordA（Unsupervised Scalable Representation Learning-FordA）、USRL-Combined （1-NN）（Unsupervised Scalable Representation Learning-Combined （1-Nearest Neighbor）） OS-CNN（Omni-Scale Convolutional Neural Network）、Inception-Time和RTFN（Robust Temporal Feature Network for time series classification），MCA-LSTM在平均错误率（ME）上分别降低了7.48、9.92、2.43、2.09和0.82个百分点，并取得了最高的算术平均排名（AMR）和几何平均排名（GMR），分别为2.14和3.23，这些充分体现了MCA-LSTM模型在单变量时间序列分类中的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 基于注意力机制和金字塔融合的RGB-D室内场景语义分割

余娜, 刘彦, 魏雄炬, 万源

《计算机应用》唯一官方网站 2022, 42 (3): 844-853. DOI: 10.11772/j.issn.1001-9081.2021030392

摘要（404）

HTML （18）

PDF （1447KB）（164）

针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题，提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet，并为其设计了两个新模块：注意力机制融合模块与金字塔融合模块。其中，注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重，充分利用两种特征的互补性，使网络聚焦于信息含量更高的多模态特征域；金字塔融合模块利用四种不同金字塔尺度特征，融合局部与全局信息，提取场景语境，提升物体边缘和小尺度物体的分割精度。将这两个融合模块整合到一个包含三个分支的“编码器-解码器”网络中，实现“端到端”输出。该模型在SUN RGB-D和NYU Depth v2数据集上与多层残差特征融合网络（RDF-152）、注意力互补网络（ACNet）、空间信息引导卷积网络（SGNet）等先进方法进行实验对比。实验结果表明，与最好的表现方法RDF-152对比，APFNet的编码器网络层数从152层降低到50层的情况下，像素精度（PA）、平均像素精度（MPA）、平均交并比（MIoU）分别提升了0.4、1.1、3.2个百分点，并对枕头、照片等小尺度物体和木板、天花板等大尺度物体的语义分割质量分别有0.9~4.5和12.4~18个百分点的提升；故该模型在处理室内场景语义分割问题上具有一定的优势。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于知识蒸馏的深度无监督离散跨模态哈希

张成, 万源, 强浩鹏

计算机应用 2021, 41 (9): 2523-2531. DOI: 10.11772/j.issn.1001-9081.2020111785

摘要（393）

PDF （1705KB）（467）

跨模态哈希因其低存储花费和高检索效率得到了广泛的关注。现有的大部分跨模态哈希方法需要额外的手工标签来提供实例间的关联信息，然而，预训练好的深度无监督跨模态哈希方法学习到的深度特征同样能提供相似信息；且哈希码学习过程中放松了离散约束，造成较大的量化损失。针对以上两个问题，提出基于知识蒸馏的深度无监督离散跨模态哈希（DUDCH）方法。首先，结合知识蒸馏中知识迁移的思想，利用预训练无监督老师模型潜藏的关联信息以重构对称相似度矩阵，从而代替手工标签帮助有监督学生模型训练；其次，采用离散循环坐标下降法（DCC）迭代更新离散哈希码，以此减少神经网络学习到的实值哈希码与离散哈希码间的量化损失；最后，采用端到端神经网络作为老师模型，构建非对称神经网络作为学生模型，从而降低组合模型的时间复杂度。在两个常用的基准数据集MIRFLICKR-25K和NUS-WIDE上的实验结果表明，该方法相较于深度联合语义重构哈希（DJSRH）方法在图像检索文本/文本检索图像两个任务上的平均精度均值（mAP）分别平均提升了2.83个百分点/0.70个百分点和6.53个百分点/3.95个百分点，充分体现了其在大规模跨模态数据检索中的有效性。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于图结构优化的自适应多度量非监督特征选择方法

林筠超, 万源

计算机应用 2021, 41 (5): 1282-1289. DOI: 10.11772/j.issn.1001-9081.2020071099

摘要（387）

PDF （1843KB）（497）

非监督特征选择是机器学习领域的热点研究问题，对于高维数据的降维和分类都极为重要。数据点之间的相似性可以用多个不同的标准来衡量，这使得不同的数据点之间相似性度量标准难以一致；并且现有方法多数通过近邻分配得到相似矩阵，因此其连通分量数通常不够理想。针对这两个问题，将相似矩阵看作变量而非预先对其进行设定，提出了一种基于图结构优化的自适应多度量非监督特征选择（SAM-SGO）方法。该方法将不同的度量函数自适应地融合成一种统一的度量，从而对多种度量方法进行综合，自适应地获得数据的相似矩阵，并且更准确地捕获数据点之间的关系。为获得理想的图结构，通过对相似矩阵的秩进行约束，在优化图局部结构的同时简化了计算。此外，将基于图的降维问题合并到所提出的自适应多度量问题中，并引入稀疏l2，0正则化约束以获得用于特征选择的稀疏投影。在多个标准数据集上的实验验证了SAM-SGO的有效性，相比较于近年所提出的基于局部学习聚类的特征选择和内核学习（LLCFS）、依赖指导的非监督特征选择（DGUFS）和结构化最优图特征选择（SOGFS）方法，该方法的聚类正确率平均提高了约3.6个百分点。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于弹性网和直方图相交的非负局部稀疏编码

万源, 张景会, 陈治平, 孟晓静

计算机应用 2019, 39 (3): 706-711. DOI: 10.11772/j.issn.1001-9081.2018071483

摘要（387）

PDF （1007KB）（267）

针对稀疏编码模型在字典基的选择时忽略了群效应，且欧氏距离不能有效度量特征与字典基之间距离的问题，提出基于弹性网和直方图相交的非负局部稀疏编码方法（EH-NLSC）。首先，在优化函数中引入弹性网模型，消除字典基选择数目的限制，能够选择多组相关特征而排除冗余特征，提高了编码的判别性和有效性。然后，在局部性约束中引入直方图相交，重新定义特征与字典基之间的距离，确保相似的特征可以共享其局部的基。最后采用多类线性支持向量机进行分类。在4个公共数据集上的实验结果表明，与局部线性约束的编码算法（LLC）和基于非负弹性网的稀疏编码算法（NENSC）相比，EH-NLSC的分类准确率分别平均提升了10个百分点和9个百分点，充分体现了其在图像表示和分类中的有效性。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于多层非负局部Laplacian稀疏编码的图像分类

万源, 张景会, 吴克风, 孟晓静

计算机应用 2018, 38 (9): 2489-2494. DOI: 10.11772/j.issn.1001-9081.2018020501

摘要（638）

PDF （1164KB）（488）

针对单层稀疏编码结构对图像特征学习能力的局限性问题，提出了一个基于图像块稀疏表示的深层架构，即多层融合局部性和非负性的Laplacian稀疏编码算法（MLLSC）。对每个图像平均区域划分并进行尺度不变特征变换（SIFT）特征提取，在稀疏编码阶段，在Laplacian稀疏编码的优化函数中添加局部性和非负性，在第一层和第二层分别进行字典学习和稀疏编码，分别得到图像块级、图像级的稀疏表示，为了去除冗余特征，在进行第二层稀疏编码之前进行主成分分析（PCA）降维，最后采用多类线性支持向量机进行分类。在四个标准数据集上进行验证，实验结果表明，MLLSC方法具有高效的特征学习能力，能够捕获图像更深层次的特征信息，相对于单层结构算法准确率提高了3%~13%，相对于多层稀疏编码算法准确率提高了1%~2.3%；并对不同参数进行了对比分析，充分展现了其在图像分类中的有效性。

参考文献 | 相关文章 | 多维度评价

Select

8. 自适应嵌入的半监督多视角特征降维方法

孙圣姿, 万源, 曾成

计算机应用 2018, 38 (12): 3391-3398. DOI: 10.11772/j.issn.1001-9081.2018051050

摘要（495）

PDF （1212KB）（436）

半监督模式下的多视角特征降维方法，大多并未考虑到不同视角间特征投影的差异，且由于缺乏对降维后的低维矩阵的稀疏约束，无法避免噪声和其他不相关特征的影响。针对这两个问题，提出自适应嵌入的半监督多视角特征降维方法。首先，将投影从单视角下相同的嵌入矩阵扩展到多视角间不同的矩阵，引入全局结构保持项；然后，将无标签的数据利用无监督方法进行嵌入投影，对于有标签的数据，结合分类的判别信息进行线性投影；最后，再将两类多投影映射到统一的低维空间，使用组合权重矩阵来保留全局结构，很大程度上消除了噪声及不相关因素的影响。实验结果表明，所提方法的聚类准确率平均提高了约9%。该方法较好地保留了多视角间特征的相关性，捕获了更多的具有判别信息的特征。

参考文献 | 相关文章 | 多维度评价